home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / inet / ietf / opstat / opstat-minutes-91nov.txt < prev    next >
Encoding:
Text File  |  1993-02-17  |  11.7 KB  |  332 lines

  1.  
  2. CURRENT_MEETING_REPORT_
  3.  
  4.  
  5. Reported by Claudio Topolcic/CNRI and Bernhard Stockman/NORDUnet
  6.  
  7. Minutes of the Operational Statistics Working Group (OPSTAT)
  8.  
  9. Monday's Session
  10.  
  11. The purpose of this meeting were:
  12.  
  13.  
  14.   1. Review the current status of the OPSTATS activities
  15.  
  16.        o Bernhard's papers
  17.        o Other related efforts, specifically, Susan Estrada's BOF
  18.  
  19.   2. Decide what can be progressed now and progress it
  20.  
  21.        o Model
  22.        o Set of metrics (simple SNMP only)
  23.        o Display formats
  24.        o Simple collection, storage, and exchange
  25.  
  26.   3. Define what is still left to do
  27.  
  28.        o MIB for new SNMP variables
  29.        o Exchange protocol
  30.        o More sophisticated storage formats
  31.        o Develop publicly available collection tools
  32.        o Display formats for weekly and instantaneous reports
  33.  
  34.   4. Specific actions to be taken in this meeting were:
  35.  
  36.        o Decide polling period
  37.        o Agree on what to progress
  38.        o Edit Bernhard's papers, review on Thursday, submit as Internet
  39.          Draft
  40.  
  41.  
  42. The model was presented for people who were new to the group.  A
  43. fundamental part of this model is the agreement on a common minimal set
  44. of metrics that will be collected.  It was noted that some of these may
  45. be difficult to obtain.
  46.  
  47. It had been proposed that there would be three report formats that would
  48. be produced; a monthly report, a weekly report, and an instantaneous
  49. display.  A format for the monthly report had been agreed to.  It was
  50. described as a ``Macdonalds'' report because it would contain only total
  51. aggregates.  It was felt that this report would support management
  52. activities, whereas the weekly report would support engineering
  53. planning, and the instantaneous display would support problem
  54. resolution.  However, it was realized that the real distinction was not
  55. the time frame but the degree of aggregation of the data.  The data in
  56.  
  57.                                    1
  58.  
  59.  
  60.  
  61.  
  62.  
  63. the management reports would be more aggregated that that in the
  64. engineering reports, regardless of the time they covered.
  65.  
  66. Bernhard's documents described the data that would be collected from
  67. each router, both for each of the router's interface, and for the router
  68. itself.  These are all MIB variables.  It was at first assumed that the
  69. per interface variables were specific to IP, but it was pointed out that
  70. the loading data needs to be total, not IP specific, or the link loading
  71. could not be determined.  It was also pointed out that the MIB interface
  72. variables are multi-protocol anyway, so there is no problem.  However,
  73. it was also pointed out that if the router variables are IP only, then
  74. they do not give a measure of the router's loading.
  75.  
  76. It was noted that the loading information that is important is not
  77. related to any interface, but to the links.  Links are occasionally
  78. rehomed when interfaces fail.  Currently, the data is processed by hand
  79. to compensate for such rehoming.  The documents do not make this
  80. distinction and need to be clarified.
  81.  
  82. Dropping the ``storage requirements'' section of Bernhard's document was
  83. considered, but it was decided to keep it in, since dropping it would
  84. give the misimpression that the group hadn't thought about the problem.
  85.  
  86. It had been proposed that the client-server model not be covered in the
  87. current documents.  The reason, in part, was that the original purpose
  88. of the Working Group was to get the various network operators to produce
  89. consistent reports that could be compared, not to exchange information,
  90. and that exchanging information is not required very often.
  91.  
  92. The data storage format was discussed.  The format impacts what will be
  93. stored and what can be done with it.  To reduce storage requirements,
  94. several people proposed that raw data could be kept for some period of
  95. time, and then aggregated somewhat and kept for some other period of
  96. time, and then further aggregated.  The proposals differed in the time
  97. periods, and the form of aggregation.  However, it was pointed out that
  98. although engineering requirements tend to be common, so common
  99. non-aggregated data will be useful, management requirements tend to
  100. differ, so common aggregated data is not useful.  In the end, it was
  101. realized that how much data is retained, and how long, are local
  102. decisions that cannot be standardized.
  103.  
  104. The data format should support the process that the data will undergo.
  105. The process was identified as:
  106.  
  107.  
  108.   1. Collect status data about routers and interfaces.
  109.  
  110.   2. Collect ``resource'' data, for example, about the mapping of links
  111.      to interfaces.
  112.  
  113.   3. Process the data to merge 1 and 2, decreasing the quantity of data
  114.      but without loss of information.
  115.  
  116.  
  117.                                    2
  118.  
  119.  
  120.  
  121.  
  122.  
  123.   4. Produce reports from the above reduced data.
  124.  
  125.  
  126. It was understood that the processing in step 3 would not lead to
  127. sufficient reduction in quantity to address long term data storage
  128. problems.  However, it was felt that this processing should not be
  129. combined with the report generation.
  130.  
  131. Bernhard proposed a raw data format, which was discussed.  He will
  132. incorporate suggestions into his document.
  133.  
  134. It was suggested that the monthly reports be based on a matrix that
  135. identified all the variables that would be collected and processing
  136. functions that could be applied to them.  This would not only clearly
  137. delimit the scope of the report generation process, but would also allow
  138. new variables to be added easily.  However, this approach would not
  139. support functions that are based on multiple variables, and although the
  140. matrix could be relatively full, any network operator might select only
  141. a few possibilities, and worse, the different operators might select
  142. different sets.
  143.  
  144. It was felt that the Working Group should recommend a specific polling
  145. period.  Two were on the table; 5 minutes and 15 minutes.  Concern was
  146. expressed that 5 minutes or less might result in excessive overhead or
  147. be impossible to implement with a poller that polls one router at a
  148. time.  For variables describing link loading, such as bytes transmitted,
  149. the polling period is a function of the line speed.  A one minute
  150. polling period will miss the interesting peaks of a T1 line, but will
  151. show the individual packets on a 1200 baud line.  For variables not
  152. describing link loading, such as packets dropped, the polling interval
  153. can generally be very long, until the value changes, at which time the
  154. polling period should be shortened to help identify the problem.  So it
  155. may be that a 15 minute polling period is sufficient for anything other
  156. than link utilization.  This discussion was deferred until the next
  157. meeting on Thursday.
  158.  
  159. Geoff Huston suggested a different approach.  He proposed that the link
  160. utilization parameter that is most closely correlated to the clients'
  161. dissatisfaction is the mean standard deviation of inter-packet arrival
  162. times of evenly spaced (when transmitted) TCP packets.  He suggested
  163. that this parameter explodes as soon as congestion appears.
  164.  
  165.  
  166.  
  167. Thursday's Session
  168.  
  169. During the second OPSTAT session the storage format and the polling
  170. periods were discussed in more detail.
  171.  
  172. The Storage Format
  173.  
  174. The placeholder for the header section is suggested to be within the
  175. log-file.  However, there might be useful with both separate and in-band
  176.  
  177.                                    3
  178.  
  179.  
  180.  
  181.  
  182.  
  183. headers.  It was expressed the need for multiple header sections within
  184. one log-file.  When closing and reopening the same log-file there is the
  185. need for close and start time specifications.  When changing log-source
  186. there is the need of specifying a new device.  Three delimiter pairs
  187. were suggested:
  188.  
  189.  
  190.  
  191.     BEGIN_TIME   - END_TIME
  192.     BEGIN_DEVICE - END_DEVICE
  193.     BEGIN_DATA   - END_DATA
  194.  
  195.  
  196.  
  197. There are currently two storage formats.  The version presented by
  198. Bernhard Stockman and and earlier version produced by Chris Myers.
  199. Chris Myers volunteered to produce a second version of his storage
  200. format strawman.
  201.  
  202. The generic log data format is:
  203.  
  204.  
  205.  
  206.   timestamp, tag, delta_sample_interval, data1, data2, data3, ..., dataN
  207.  
  208.  
  209.  
  210. where the tag defines the logged variables.
  211.  
  212.  
  213. The Polling Period
  214.  
  215. The reason for the polling is to achieve statistics to serve as base for
  216. trend and capacity planning.  From the operational data it shall be
  217. possible to derive engineering and management data.
  218.  
  219. It will not be sufficient with a polling period of 15 minutes to detect
  220. variations in peak-behavior.  It was suggested that a period of maximum
  221. 1 minute would be needed.  Using such a tight polling period will create
  222. a need for aggregating stored data.  Aggregation here means to over a
  223. period with logged entries, a new aggregated entry is created by taking
  224. the first and last of the previously logged entries over some
  225. aggregation period and compute a new entry.
  226.  
  227. A method of displaying both average and peak-behaviors in the same
  228. bar-diagram is to compute both the average value over some period and
  229. the peak value during the same period.  The average and peak values are
  230. then displayed in the same bar.
  231.  
  232. A problem here is how to aggregate peak values.  There is the
  233. possibility of creating a new peak value being the peak of all the
  234. peaks, the average of all the peaks, etc.
  235.  
  236.  
  237.  
  238.                                    4
  239.  
  240.  
  241.  
  242.  
  243.  
  244. Another reason for aggregation is the differentiation of needed polling
  245. periods depending on the reason for and source of the polling.
  246.  
  247. What is foreseen is that over a relatively short period, polled data
  248. will be logged at the tightest polling period (1 minute) regularly these
  249. data will be pre-processed into the actual files being stored.  The
  250. pre-processing may include steps such as the computation of percent
  251. samples above a certain limit, average of all samples during the
  252. aggregation period, cumulative histograms.  This pre-processing will
  253. than not only serve as storage compacting but also provide some initial
  254. statistical processing.
  255.  
  256. Recommendation on polling period:
  257.  
  258.  
  259.  
  260.     Basic polling period    1 minute (60 seconds).
  261.  
  262.  
  263.  
  264. Recommendation on aggregation periods:
  265.  
  266.  
  267.  
  268. Over a
  269.  
  270.     24 hour period        aggregate to 15 minutes,
  271.     1 month period        aggregate to 1 hour,
  272.     1 year period         aggregate to 1 day
  273.  
  274.  
  275.  
  276. Aggregation is the computation of new average and maximum values for the
  277. aggregation period based on the previous aggregation period data.
  278.  
  279. Recommendation for saving periods of logged and aggregated data:
  280.  
  281.  
  282.  
  283.     15 minute aggregation period      saved 1 week.
  284.     1 hour aggregation period         saved 1 month.
  285.     1 day aggregation period          saved 1 year.
  286.  
  287.  
  288.  
  289. Finally it was decided that, as the current document will not contain
  290. the protocol specification of the client-server model, it will be
  291. sufficient to put the comming RFC into the informational track.
  292.  
  293. Attendees
  294.  
  295. Vikas Aggarwal           aggarwal@jvnc.net
  296. Miriam Amos Nihart       miriam@decwet.zso.dec.com
  297. Jordan Becker            becker@nis.ans.net
  298.  
  299.                                    5
  300.  
  301.  
  302.  
  303.  
  304.  
  305. Robert Blokzijl          K13@nikhef.nl
  306. Steve Bostock            steveb@novell.com
  307. Randy Butler             rbutler@ncsa.uiuc.edu
  308. John Gong                jgong@us.oracle.com
  309. Phillip Gross            pgross@nis.ans.net
  310. Greg Hollingsworth       gregh@mailer.jhuapl.edu
  311. Kathleen Huber           khuber@bbn.com
  312. Geoff Huston             g.huston@aarnet.edu.au
  313. Walter Lazear            lazear@gateway.mitre.org
  314. April Marine             april@nisc.sri.com
  315. Robert Morgan            morgan@jessica.stanford.edu
  316. Dennis Morris            morrisd@imo-uvax.dca.mil
  317. Chris Myers              chris@wugate.wustl.edu
  318. Rebecca Nitzan           nitzan@es.net
  319. Marsha Perrott           mlp+@andrew.cmu.edu
  320. Ron Roberts              roberts@jessica.stanford.edu
  321. Timothy Salo             tjs@msc.edu
  322. Bernhard Stockman        boss@sunet.se
  323. Joanie Thompson          joanie@nsipo.nasa.gov
  324. Claudio Topolcic         topolcic@nri.reston.va.us
  325. Andrew Veitch            aveitch@bbn.com
  326. Wengyik Yeong            yeongw@psi.com
  327. Osmund de Souza          osmund.desouza@att.com
  328.  
  329.  
  330.  
  331.                                    6
  332.